ارائه یک ساختار جدید وابسته به بافت برای بازشناسی گفتار پیوسته

thesis
abstract

این پژوهش، کوششی است برای ارائه یک ساختار وابسته به بافت برای بازشناسی گفتار پیوسته. مدل سازی مستقل از بافت، اثر واج های پیرامون را بر تلفظ هر واج، نادیده می گیرد و به همین دلیل، برای مدل سازی هر واج، همه نمونه های آموزشی مربوط به آن واج را در نظر می گیرد. در نظر گرفتن اثر بافت در مدل سازی، می تواند خطای بازشناسی را تا حد زیادی کاهش دهد. این پایان نامه با در نظر گرفتن واحد آوایی سه واجی، واج های پیشین و پسین هر واج را نیز در مدل سازی دخالت می دهد. به این صورت که سه واجی های مشابه با هم را از طریق الگوریتم خوشه بندی k-means تشخیص داده، یعنی سه واجی های مشابه را با هم در یک خوشه قرار می دهد. این کار موجب می شود که تنها نمونه هایی از یک واج، با هم آموزش داده شوند که بافت مشابهی داشته باشند. مهم ترین مشکلی که برای خوشه بندی وجود دارد، ناهمسانی ابعاد داده ها (ویژگی های مربوط به هر واج) است. برای همسان سازی ابعاد داده ها، از سه روش dtw ، تبدیل فوریه و pca استفاده شد. مشاهده شد که روش های تبدیل فوریه و نیز pca هم از نظر سرعت و هم از نظر دقت، بهتر از dtw عمل می کنند. همچنین در مقایسه دو روش تبدیل فوریه و pca، روش تبدیل فوریه موفق تر عمل کرد. پس از خوشه بندی، خوشه هایی که داده های آموزشی کمی داشتند، با یکدیگر ادغام گردیدند و نیز واج هایی که داده های آموزشی زیادی داشتند، به عنوان سه واجی های ویژه، در یک خوشه مستقل قرار گرفتند. در نهایت، مدل نهایی وابسته به بافت ارائه شده، که از روش تبدیل فوریه برای همسان سازی ابعاد استفاده می کند و از روش k-means، هر واج را ابتدا به سه خوشه تقسیم می کند و نیز پس از إعمال پس پردازش های یادشده، نرخ خطای واجی را از 34.7 (که مربوط به حالت مستقل از بافت بود) به 30.55 کاهش داد. بستر انجام آزمایش ها، محیط kaldi بوده است. نرخ خطای واجی روش پیش فرض kaldi در مرحله سه واجی، 30.98 است که نسبت به روش پیشنهادی، 0.43 درصد بیشتر است.

First 15 pages

Signup for downloading 15 first pages

Already have an account?login

similar resources

ارائه یک روش جدید بازیابی اطلاعات مناسب برای متون حاصل از بازشناسی گفتار

In this article a pre-processing method is introduced which is applicable in speech recognized texts retrieval task. We have a text corpus, t generated from a speech recognition system and a query as inputs,  to search queries in these documents and find relevant documents. A basic problem in a typical speech recognized text is some error percentage in recognition. This, results erroneously ass...

full text

مدلسازی وابسته به متن در بازشناسی گفتار پیوسته بر اساس در خت تصمیم گیری آوایی فارسی

مدلسازی وابسته به متن به عنوان شیوه ای مفید برای افزایش دقت مدلسازی در بازشناسی گفتار پیوسته مورد توجه است. معمولترین شکل پیاده سازی این شیوه، استفاده از مدلهای سه آوایی است. با این همه، تعداد زیاد این مدلها موجب می شود که در عمل، آموزش سیستم با مشکلات زیادی همراه باشد و دستیابی به آموزش مقاوم (robust training) به سختی میسر گشته یا اصولا مقدور نشود. یکی از شیوه های حل این مشکل، استفاده از روش گ...

full text

ارائه یک ساختار جدید چند طبقه‌ای برای اینورترهای منبع امپدانسی

In this paper, a multi-stage Z-source inverter with high boost factor is proposed. The proposed topology by using the combination of a power supply and Z-source networks are increased the voltage. Regarding voltage increase capability over the wide range, good resistance against electromagnetic noise and immunities against shoot through (ST), this inverter can be used widely in the photovoltaic...

full text

ارائه یک روش جدید بازیابی اطلاعات مناسب برای متون حاصل از بازشناسی گفتار

در این پایان نامه، یک پیش پردازش برای روشهای بازیابی اطلاعات، ارائه می شود، که برای بازیابی اطلاعات حاصل از متون بازشناسی شده ی گفتاری، مناسب است. ورودیهای مسئله اسناد متنی بدست آمده از بازشناسی گفتار و پرس و جو است. هدف یافتن اسناد مرتبط می باشد. مشکل این است که متن حاصل از بازشناسی گفتار، همواره دارای درصدی خطا در بازشناسی است که موجب می شود، بازیابی به خوبی عمل نکرده و اسناد مرتبط تشخیص داده...

15 صفحه اول

ارائه یک الگوریتم جدید برای پارک موازی خودرو مبتنی بر طراحی مسیر با انحنای پیوسته کلوتوئید

یکی از دستاورد‌های صنعت خودرو در سال‌های اخیر اضافه نمودن سیستم انجام پارک خودوند خودرو می‌باشد که این سیستم میتواند بدون دخالت یا با راهنمایی انسان خودرو را در محل مورد نظر پارک نماید. در این مقاله با ارایه یک الگوریتم جدید سعی شده تا با استفاده از خواص منحنی کلوتوئید، مسیر قابل پیمایشی برای حرکت خودرو به سمت جایگاه پارک طراحی شود. حرکت خودرو در این مسیرِ هموار به صورت پیوسته، با سرعت ثابت و ای...

full text

معرفی شبکه های عصبی پیمانه ای عمیق با ساختار فضایی-زمانی دوگانه جهت بهبود بازشناسی گفتار پیوسته فارسی

In this article, growable deep modular neural networks for continuous speech recognition are introduced. These networks can be grown to implement the spatio-temporal information of the frame sequences at their input layer as well as their labels at the output layer at the same time. The trained neural network with such double spatio-temporal association structure can learn the phonetic sequence...

full text

My Resources

Save resource for easier access later

Save to my library Already added to my library

{@ msg_add @}


document type: thesis

وزارت علوم، تحقیقات و فناوری - دانشگاه قم - دانشکده فنی

Hosted on Doprax cloud platform doprax.com

copyright © 2015-2023